Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/datarascals/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50
Дата канальи — про «специалистов» в данных / ML / AI | Telegram Webview: datarascals/211 -
Telegram Group & Telegram Channel
В комментах под постом про связь оптимизации BCE и ростом NDCG меня попросили рассказать про связь минимизация логлосс и максимизация ROCAUC 🤓

Начну издалека и разобью ответ на несколько постов.

Не из вредности, а из-за того что в ROCAUC как правило, не углубляются и оттого возможны оптические иллюзии (назовем пока так) 🌈

Не верите?

Ну вот для разминки 🏋‍♂️ пара задачек от Александра Дьяконова

Раз
Два

И одна прямиком из статьи:

Если ваш алгоритм максимизирует ROCAUC, максимизирует ли он одновременно площадь под кривой Precision-Recall (AUCPR или AP == average precision)?

Короткий ответ — нет

Хотя кривые из пространства (FPR, TPR) однозначно переводятся в кривые из пространства (Recall, Precision), более того, если одна ROC-кривая везде лучше (или равна) другой (слева-вверху, в литературе называют dominate 🥊) то и в координатах (Recall, Precision) это сохранится, причем наоборот тоже работает.

Пример двух пересекающихся ROC-кривых, в которых при переводе в (Recall, Precision) радикально меняется соотношение площадей под графиками в статье The Relationship Between Precision-Recall and ROC Curves (2006)

Конечно, таких фокусов хочется избежать 🧙‍♂️, для этого все же нужно вспомнить про задачу — редко когда нам надо одинаково хорошо уметь ранжировать по всей выборке, чаще именно ранжировать нужно уметь в каком-то регионе (например по FPR), поэтому у ROCAUC множество модификаций — PAUC (Partial AUC), TPAUC, OPAUC, SAUC, gAUC (generalised AUC), GAUC (group AUC), GAUC@k, LAUC@k (limited AUC) и всякие другие.

Здесь снова вспоминается тезис Александра Дьяконова из неопубликованного (а мб он уже опубликовал?) учебника о том что все банки используют GINI (он же ROCAUC) в задаче PD (определения вероятности наступления дефолта), а ROCAUC не то чтобы в этом случае сильно подходит — IMHO, ровно потому что ранжирование интересно уже выше отсечки одобрения кредита (и там калиброванный PD войдет уже в EL).

Но не скорингом единым — PAUC и другие модификации широко используются в рекомендашках и в поиске (да, и в RAG тоже -- на этапе retrieval).

Если хотите с азов 💾, то про сами сами ROC-кривые, их доверительные интервалы, обобщения на мульткласс можно почитать здесь а про связь ROCAUC с вероятностью корректно ранжировать — в журнале по радиологии за 1982 год.

PS: Если с researchgate сложности - маякните единорожкой, выложу pdf’ки в комментариях

PPS: про связь ROCAUC и логлосс уже в следующем посте, пока лишь намекну статьей про DeepFM (таб. 2)

PPPS: уже почти не удивляюсь когда вижу статью с названием Deep ROC analysis <...> в приличном журнале за 2021 год 😱, вот и вы не удивляйтесь этому посту 😆
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/datarascals/211
Create:
Last Update:

В комментах под постом про связь оптимизации BCE и ростом NDCG меня попросили рассказать про связь минимизация логлосс и максимизация ROCAUC 🤓

Начну издалека и разобью ответ на несколько постов.

Не из вредности, а из-за того что в ROCAUC как правило, не углубляются и оттого возможны оптические иллюзии (назовем пока так) 🌈

Не верите?

Ну вот для разминки 🏋‍♂️ пара задачек от Александра Дьяконова

Раз
Два

И одна прямиком из статьи:

Если ваш алгоритм максимизирует ROCAUC, максимизирует ли он одновременно площадь под кривой Precision-Recall (AUCPR или AP == average precision)?

Короткий ответ — нет

Хотя кривые из пространства (FPR, TPR) однозначно переводятся в кривые из пространства (Recall, Precision), более того, если одна ROC-кривая везде лучше (или равна) другой (слева-вверху, в литературе называют dominate 🥊) то и в координатах (Recall, Precision) это сохранится, причем наоборот тоже работает.

Пример двух пересекающихся ROC-кривых, в которых при переводе в (Recall, Precision) радикально меняется соотношение площадей под графиками в статье The Relationship Between Precision-Recall and ROC Curves (2006)

Конечно, таких фокусов хочется избежать 🧙‍♂️, для этого все же нужно вспомнить про задачу — редко когда нам надо одинаково хорошо уметь ранжировать по всей выборке, чаще именно ранжировать нужно уметь в каком-то регионе (например по FPR), поэтому у ROCAUC множество модификаций — PAUC (Partial AUC), TPAUC, OPAUC, SAUC, gAUC (generalised AUC), GAUC (group AUC), GAUC@k, LAUC@k (limited AUC) и всякие другие.

Здесь снова вспоминается тезис Александра Дьяконова из неопубликованного (а мб он уже опубликовал?) учебника о том что все банки используют GINI (он же ROCAUC) в задаче PD (определения вероятности наступления дефолта), а ROCAUC не то чтобы в этом случае сильно подходит — IMHO, ровно потому что ранжирование интересно уже выше отсечки одобрения кредита (и там калиброванный PD войдет уже в EL).

Но не скорингом единым — PAUC и другие модификации широко используются в рекомендашках и в поиске (да, и в RAG тоже -- на этапе retrieval).

Если хотите с азов 💾, то про сами сами ROC-кривые, их доверительные интервалы, обобщения на мульткласс можно почитать здесь а про связь ROCAUC с вероятностью корректно ранжировать — в журнале по радиологии за 1982 год.

PS: Если с researchgate сложности - маякните единорожкой, выложу pdf’ки в комментариях

PPS: про связь ROCAUC и логлосс уже в следующем посте, пока лишь намекну статьей про DeepFM (таб. 2)

PPPS: уже почти не удивляюсь когда вижу статью с названием Deep ROC analysis <...> в приличном журнале за 2021 год 😱, вот и вы не удивляйтесь этому посту 😆

BY Дата канальи — про «специалистов» в данных / ML / AI




Share with your friend now:
tg-me.com/datarascals/211

View MORE
Open in Telegram


DATARASCALS Telegram Group Telegram | DID YOU KNOW?

Date: |

Look for Channels Online

You guessed it – the internet is your friend. A good place to start looking for Telegram channels is Reddit. This is one of the biggest sites on the internet, with millions of communities, including those from Telegram.Then, you can search one of the many dedicated websites for Telegram channel searching. One of them is telegram-group.com. This website has many categories and a really simple user interface. Another great site is telegram channels.me. It has even more channels than the previous one, and an even better user experience.These are just some of the many available websites. You can look them up online if you’re not satisfied with these two. All of these sites list only public channels. If you want to join a private channel, you’ll have to ask one of its members to invite you.

At a time when the Indian stock market is peaking and has rallied immensely compared to global markets, there are companies that have not performed in the last 10 years. These are definitely a minor portion of the market considering there are hundreds of stocks that have turned multibagger since 2020. What went wrong with these stocks? Reasons vary from corporate governance, sectoral weakness, company specific and so on. But the more important question is, are these stocks worth buying?

DATARASCALS Telegram Group from sg


Telegram Дата канальи — про «специалистов» в данных / ML / AI
FROM USA